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基于 多 层 感知 机 的 图 像 分 类 


摘要 


多 层 感 知 机 (MLP) 是 一 种 前 馈 神经 网 络 , 通过 在 网 络 中 加 入 一 个 或 者 更 多 
个 隐藏 层 ， 克服 了 线性 模型 的 限制 ,打开 了 深度 学 习 的 大 门 。 本 文 利 用 了 多 层 感 
知 机 完成 图 像 分 类 ， 在 Fashion MNIST 数据 集 上 进行 了 探索 ， 并 尝试 迁移 到 
MNIST 数据 集中 。 在 Fashion MNIST 上 我 们 进行 特征 预 处 理 后 ， 选 择 了 不 同 的 
优化 方法 并 进行 比较 , 此 外 分 别 通过 增加 丢弃 法 (dropout) 和 权重 衰减 法 (weight 
decay) 等 正则 化 方法 ， 实 现 了 对 多 层 感 知 机 的 优化 、 改 进 。 

通过 实验 表明 , 适当 的 特征 处 理 能 够 提高 模型 的 数值 稳定 性 。 动量 法 显著 提 
高 了 模型 效果 ， 同 时 权重 衰减 等 方法 对 提高 模型 的 泛 化 效果 起 到 了 帮助 。 
关键 词 : 多 层 感 知 机 ， 深 度 学 习 ; 前 馈 神经 网 络 
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1.1 介绍 


本 文 主要 面 对 的 是 图 像 分 类 的 任务 ， 选 择 在 Fashion MNIST 和 MNIST 两 个 
经 典 的 数据 集 上 进行 训练 ,主要 采用 的 是 多 层 感知 机 算法 ， 并 进行 改进 后 与 简单 
的 线性 分 类 算法 (softmax 回归 ) 进行 比较 。 
1.1.1 数据 集 介绍 
(1) MNIST 数据 集 
MNIST 是 由 美国 高 中 生 和 人 口 调查 局 员工 手写 的 70000 个 数字 的 图 片 。 


张 图 片 大 小 为 28x28， 用 其 代表 的 数字 标记 。 这 个 数据 集 广 为 使 用 ， 因 此 也 被 称 
为 机 器 学 习 领 域 的 “Hello World”。 
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图 1-1: MNIST 数据 集 概览 


(2) Fashion MNIST 数据 集 
Fashion MNIST 可 以 视 作 MNIST 的 直接 替代 品 , 它 具 有 与 MNIST 完全 相同 
的 格式 〈70000 张 灰 度 图 像 ， 每 幅 28X28 个 像素 ， 有 10 个 类 )， 但 是 这 些 图 像 
代表 的 是 时 尚 物品 , 因此 更 具 挑 战 性 ,一 些 机 器 学 习 算法 在 MNIST 上 表现 优秀 ， 
但 在 Fashion MNIST 上 性 能 一 般 。 例 如 KNN 和 Softmax 回归 ， 在 MNIST 上 的 
准确 率 可 达 98%、93%， 在 Fashion MNIST 上 仅 有 84%、83%I。 因 此 Fashion 
MNIST 更 加 适宜 用 来 检验 机 器 学 习 算 法 进行 图 像 分 类 的 效果 。 
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图 1-2: Fashion MNIST 概览 医 


1.1.2 算法 介绍 


本 文采 用 的 技术 是 多 层 感知 机 (MLP)。 

选择 多 层 感 知 机 主要 是 考虑 到 数据 的 海量 性 ,以 及 图 像 分 类 的 任务 , 使 用 传 
统 的 机 器 学 习 方 法 难以 较 好 的 解决 问题 。 深度 学 习 方法 中 的 多 层 感 知 机 ， 相 较 于 
卷 积 神经 网 络 更 加 容易 实现 ， 而 且 在 图 像 分 类 领域 也 有 着 相当 不 错 的 效果 。 

多 层 感 知 机 又 叫 多 层 神经 网 络 , 是 由 一 层 输 入 层 、 一 层 或 多 层 隐藏 层 和 最 后 
一 层 输 出 层 组 成 ,出 输出 层 外 每 层 都 包含 偏 置 神经 元 , 并 且 完 全 连接 到 下 一 层 ( 即 
全 连接 层 )。 


1 
, layer 


图 1-3: 一 个 简单 的 多 层 感 知 机 的 结构 

为 了 能 训练 出 更 复杂 的 非 线 性 模型 , 需要 在 隐 叱 层 中 加 入 激活 函数 。 常见 的 
激活 函数 有 Sigmoid 函数 、ReLU 函数 等 。 

相 较 于 传统 的 机 器 学 习 算 法 , 多 层 感知 机 训练 需要 更 多 次 的 迭代 、 模 型 占据 
更 大 的 空间 ， 训 练 需 要 更 多 的 数据 ,但 是 往往 有 更 高 的 准确 率 。 多 层 感知 机 适用 
于 对 解释 性 要 求 不 高 的 应 用 场景 ， 如 图 像 分 类 ， 语 音 识别 等 ， 被 广泛 应 用 于 数据 
安 据 、 机 器 学 习 与 模式 识别 等 领域 门 。 

多 层 感知 机 的 效果 也 会 受到 优化 方法 、 以 及 损失 函数 设 定 、 泛 化 处 理 方 法 的 
影响 ， 在 本 文中 笔者 做 出 了 一 些 改 进 ， 将 在 后 文 详 细 叙 述 。 


第 2 草 ”多 层 感 知 机 的 构建 


多 层 感知 机 是 一 种 多 层 的 前 馈 神经 网 络 , 在 训练 过 程 中 , 信号 是 前 向 传播 的 ， 
而 误差 是 反 疝 传播 的 。 因此 多 层 感 知 机 的 构建 也 主要 考虑 这 两 个 方面 : 前 向 传递 
和 反问 传播 。 

除 此 之 外 , 多 层 感知 机 在 构建 过 程 中 还 有 一 些 细 0 例如 权重 如 何 
初始 化 、 选 用 怎样 的 损失 函数 等 等 ， 都 将 在 这 里 进行 

2.1 前 向 传递 过 程 的 实现 

多 层 感知 机 在 训练 过 程 中 是 前 向 传递 和 反 辐 传播 的 结合 , 而 在 预测 时 仅 需 要 
根据 输入 进行 前 向 传递 得 到 输出 。 为 了 实现 前 向 传递 笔者 定义 了 一 些 类 ， 以 实现 
权重 层 、 偏 置 层 、 激 活 孙 数 层 和 softmax 层 等 神经 网 络 的 重要 结构 ， 以 下 是 本 文 
多 层 感知 机 在 前 向 传递 中 的 架构 : 
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生生 证 全 


一 个 隐藏 层 
图 2-1: 前 向 传递 的 架构 图 
简单 地 对 该 图 中 各 个 部 分 进行 介绍 
(1) inputLayer: 输 入 向 量 ， 大 小 为 1 Xn， 当 有 多 个 样本 的 时 候 成 为 一 个 算 
阵 。 
(2 )MultiplyGate: 乘 法 单元 , 定义 forward 函数 进行 如 下 计算 实现 前 向 传递 


output = input X Wxm 

(3) AddGate: 加 法 单元 ， 定 义 forward 函数 进行 如 下 计算 实现 前 向 传递 : 
output = input + bixm 

(4) ActivateLayer: 激 活 函 数 层 ， 在 本 文中 使 用 了 ReLU 的 激活 函数 ， 其 


forward 函数 算 实 现 前 向 传递 为 : 
ReLU: 


input input > 0 
0 input <0 


output = | 
在 训练 时 为 了 提高 泛 化 性 能 ， 笔 者 设计 了 Dropout 层 。 Dropout 法 在 前 问 传 
播 过 程 中 ,计算 每 一 内 部 层 的 同时 注入 噪声 ,这 已 经 成 为 训练 神经 网 络 的 常用 技 
术 。 这 种 方法 之 所 以 被 称 为 dropout， 因 为 我 们 从 表面 上 看 是 在 训练 过 程 中 丢弃 
(drop out) 一 些 神经 元 。 在 整个 训练 过 程 的 每 一 次 迭代 中 ， 标 准 dropout 方法 
包括 在 计算 下 一 层 之 前 将 当前 层 中 的 一 些 节 点 置 零 门 。 
一 般 而 言 ,在 输入 层 和 输出 层 是 不 进行 dropout 的 ，dropout 仅 需 要 在 隐藏 层 
设置 。 
使 用 dropout 技巧 时 ， 每 个 中 间 隐 藏 层 输出 值 h 以 dropout 概率 p 由 随机 变 
量 h' 替 换 ， 如 下 所 示 : 


让 本 0 概率 为 P 
es 其 他 情况 
1_p 兵 和 他 情 污 


根据 此 模型 的 设计 ， 其 期 望 值 保持 不 变 ， 即 E[h]=h。 而 当 不 使 用 dropout 技 
巧 时 ， 将 该 层 对 应 的 dropout 参数 设置 为 0 即 可 。 

(5) softmax 层 。 在 最 后 一 层 通 常 没 有 激活 函数 层 ， 当 经 过 偏 置 神经 元 后 的 
输出 并 不 是 最 终 的 样本 属于 茶 一 类 的 概率 ， 对 于 这 些 数 值 需要 进行 softmax 函数 
进行 统一 运算 处 理 。 

对 K 分 类 问题 ，Softmax 回归 则 训练 K 个 线性 模型 $s1,s2,……"sk: ,再 使 用 
softmax 函数 ， 输 出 实例 属于 某 一 类 k 的 可 能 性 : 


sk (X) = XTO(A) 


exp(sx (xX)) 


4 exp (sj (x)) 


Dx = 0(s(X))x = 


分 类 时 : 


y= argmax o(s(X)); = argmax sx (X) = argmax ((e®) x) 
k k k 


2.2 反 向 传播 过 程 的 实现 


本 次 设计 中 反 向 传播 采用 的 是 反 向 模式 的 自动 微分 技术 。 自动 微分 的 基本 原 
理 是 所 有 的 数值 计算 可 以 分 解 为 一 些 基本 操作 ， 包 含 加 减 乘除 和 一 些 初 等 函数 
exp, log, sin, cos 等 ， 然 后 利用 链 式 法 则 来 自动 计算 一 个 复合 函数 的 梯度 。 

假设 我 们 要 求 损 失 函 数 Fx; w,b) 对 于 所 有 参数 w、b 的 梯度 ， 首 先 ， 我 们 将 
复合 函数 f(x; w,b) 分 解 为 一 系列 的 基本 操作 , 并 构成 一 个 计算 图 (Computational 
Graph)。 计 算 图 是 数学 运算 的 图 形 化 表示 。 计算 图 中 的 每 个 非 叶 子 节 点 表示 一 个 
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基本 操作 ， 每 个 叶子 节点 为 一 个 输入 变量 或 常量 日。 


1 

hi h, hs hs hs he 

> -(*) (+) -(* 肝 - (ow) i -+ - ~-(/)> Fs mh) 
ox 不 dh 1 而， 1 Dh exp(ha) Wh! fh 一 疗 
-0 olom _, | =1 

三 一 王莽 


=—0.25 
ww b | 


图 2-2: 一 个 计算 图 的 实例 

反问 模式 是 按 计 算 图 中 计算 方 同 的 相反 方向 来 递归 地 计算 梯度 。 为 此 ,反问 
模式 运用 的 是 链 式 法 则 来 进行 偏 导 数 的 运算 图 ; 
of _ 9f _ on: 


OX On: Ox 
对 于 一 般 的 函数 形式 R* 一 >R”， 前 向 模式 需要 对 每 一 个 输入 变量 都 进行 一 
遍 遍 历 ， 共 需要 N 人 毅 。 而 反问 模式 需要 对 每 一 个 输出 都 进行 一 个 遍历 ， 共 需 
要 M 遍 . 当 N>M 时 ， 反 向 模式 更 高 效 。 在 前 馈 神经 网 络 的 参数 学 习 中 ， 风 险 函 
数 为 1f:R* 一 >R, 输出 为 标量 ,因此 采用 反 向 模式 为 最 有 效 的 计算 方式 ,只 需要 一 
遍 计 算 , 在 前 同 传 递 的 时 候 将 中 间 结 果 保 存 下 来 , 反 向 传播 的 时 候 依次 从 后 往 前 ， 
运用 到 这 些 结果 ， 来 计算 出 梯度 。 
应 用 计算 图 的 思想 ， 本 次 设计 中 前 向 传播 的 各 个 单元 所 对 应 的 类 既 带 有 
forward 函数 以 进行 前 向 传递 ， 又 带 有 backward 函数 以 进行 误差 的 反 辐 传播 : 
不 妨 假设 从 损失 函数 f 传 到 当前 层 的 输出 层 的 梯度 为 4Z = 世 


oni 


(1) MultiplyGate: 乘 法 单元 ， 定 义 backward 函数 进行 如 下 计算 实现 反 向 传 


播 : 
dW = XT x dZ 
(3) AddGate: 加 法 单元 ， 定 义 backward 函数 进行 如 下 计算 实现 反问 传播 : 
db = M x daZ 


其 中 M 用 代码 表示 为 np.ones((1, dZ.shape[0])， 及 形状 和 b 相同 ， 元 素 全 1 
的 向 量 。 
(4) ActivateLayer: 激 活 函数 层 ， 在 本 文中 实现 的 ReLU、Sigmoid、Tanh、 

等 激活 函数 ， 其 backward 函数 算 实 现 反 癌 传播 分 别 为 :，( 设 激活 函数 为 o(x)) 


1 x>0 
0 x=<0 


Sigmoid: ao’'(x) = o(x)(1 — o(x)) 
Tanh: o’'(x)= 1— 0o?(x) 

1 x>0 
0 x<0 


《5) softmax 层 : 本 文 使 用 的 损失 函数 是 交叉 业 损 失 函 数 ， 即 
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ReLU:o'(x) = | 


LeakyReLU: o'(x) = | 


昌 
L=— > ylog(pi) 
t=1 


以 交叉 焙 为 损失 的 softmax 层 的 求 导 过 程 为 : 
oL oL Opj 


一 = 一 x- 二 =(pOD 一 1 
dy: - pp)” By (p(D) —1) 
得 到 了 一 个 非常 简洁 的 表达 式 。 
2.3 整体 代码 结构 
我 们 的 代码 的 整体 架构 如 下 图 所 示 : 
Te Optimizer.py 
~ 评价 -- 
| CC mtime ) evaluate.py 


calculate_loss 


.Output.py 


构造 AddGate、 MultiplyGate、 Softarax 对 象 ， 
完成 前 向 传递 、 反 向 传播 


图 2-3: 整体 代码 框架 
我 们 的 代码 在 optimizerpy 中 封装 了 一 个 优化 器 类 ,在 Laypy 中 封装 了 激活 
代码 的 核心 在 于 Model 类 ， 在 定义 Model 类 对 象 时 可 以 给 出 MLP 的 层 数 、 
各 层 dropout 的 概率 、 优 化 器 “优化 器 是 optimizerpy 中 的 类 对 象 )、 激 活 函 数 
(Lay.py 中 的 类 对 象 ) Model 类 即 会 完成 成 员 对 象 的 初始 化 , 其 中 各 层 的 权重 W 
和 偏 置 b 的 初始 化 采用 的 是 Xavier 初始 化 方法 ， 以 提高 模型 的 数值 稳定 性 : 假 
设 某 层 输入 是 nn 个 神经 元 ,输出 是 nou 个 神经 元 ，Xavier 初始 化 的 权重 矩阵 中 某 


个 元 素 服从 分 布 : 
rr 6 6 
Nin 十 Nout l Nin 十 Nout E 


成 员 变 量 中 的 self.vb,self.vw 则 用 来 保存 一 些 之 前 训练 的 梯度 等 信息 ， 在 一 
些 优化 方法 中 有 用 ， 初 始 化 时 统一 设置 为 0。 

Model 类 中 有 成 员 函 数 :train、predict、calculate loss、clear 分 别 用 于 训练 模 
型 、 进 行 预测 、 计 算 损 失 、 将 模型 重新 初始 化 。 前 三 个 函数 训练 时 都 会 自动 构造 
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Gate.py, 


AddGate、MultiplyGate、Softmax 类 对 象 ， 以 进行 前 向 传递 和 反 回 传播 的 逐一 计 
算 。 

同时 整个 项 目 还 包含 对 模型 效果 进行 评价 的 函数 , 封装 在 evaluate.py 中 ,时 
间 有 限 完 成 的 函数 有 两 个 ， 分 别 可 以 用 来 计算 混 请 矩阵 和 绘制 ROC 曲线。 


第 3 章 ”多 层 感知 机 的 训练 和 改进 


本 文 实现 的 多 层 感知 机 的 训练 和 改进 主要 是 在 Fashion MNIST 数据 集 上 面 
进行 ， 主 要 的 流程 也 就 是 深度 学 习 一 般 的 流程 ， 如 下 图 所 示 : 


数据 集 的 读 取 与 电 ee 设置 超 参数 、 优 
可 视 化 建立 感知 机 模型 一 
| 进行 模型 评价 i 人 


图 3-1: 多 层 感 知 机 的 训练 流程 图 
3.1 数据 集 的 读 取 与 可 视 化 
Fashion MNIST 的 训练 集 和 测试 集 都 是 csv 的 形式 ， 里 面包 含 了 标签 和 像素 
点 灰 度 值 。 


读 取 数据 时 ，label 代表 这 幅 图 像 的 类 别 ， 具 体 与 下 表 对 应 
表 3.1: Fashion MNIST 标签 对 应 的 类 别 


Label Description 
0 T 恤 (T-shirt/top) 
1 裤子 (Trouser) 
2 套头 衫 (Pullover) 
3 连衣裙 (Dress) 
4 外 套 (Coat) 
5 凉鞋 (Sandal) 
6 衬衫 (Shirt) 
了 运动 鞋 (Sneaker) 
8 包 (Bag) 
9 靴子 (Ankle boot) 


将 图 片 可 视 化 后 的 效果 如 下 : 


pullover ankle boot shirt t-shirt dress coat coat sandal coat 


= 人 上 和 四 | 外 < < ,| 


图 3-3: FashionMNIST 可 视 化 效果 图 
结合 图 1-2 可 以 看 出 ， 这 个 数据 集 物品 有 各 式 各 样 的 花纹 、 形 状 、 颜 色 ， 为 
识别 带 来 了 挑战 
3.2 特征 处 理 


我 们 的 模型 首先 在 特征 处 理 方面 进行 了 改进 。 

我 们 建立 的 模型 是 两 个 输入 层 ， 两 个 隐藏 层 的 神经 网 络 ， 隐 茂 层 神经 元 个 数 
依次 为 256、128， 不 使 用 dropout 方法 ， 使 用 批量 随机 下 降 ，batch size 为 128， 
学 习 率 设 定 为 1.28X10”。 

我 们 分 别 比较 了 不 进行 特征 处 理 和 进行 特征 处 理 的 模型 训练 后 在 训练 集 上 
的 准确 率 和 在 测试 集 上 的 准确 率 。 不 进行 特征 处 理 是 直接 将 图 像 784 个 像素 点 灰 
度 值 作为 输入 ， 而 特征 处 理 则 将 图 像 的 每 个 像素 点 的 灰 度 值 取 对 数 进行 处 理 : 

Input=ln(image+1) 

我 们 对 两 者 分 别 训练 5 代 〔〈 每 代 遍 历 60000 个 数据 一 次 )。 绘 制 出 两 者 训练 
集 损失 、 训 练 集 准 确 率 、 测 试 集 准 确 率 随 代 数 的 变化 曲线 图 。 如 图 3-4 和 3-5 所 
不 : 


一 一 train loss 
--—- train accC 
一 一 test acc 


一 一 train loss 


一 一 ”train acc 
一 一 test acc 


0 5 10 15 20 0 5 10 15 20 
batch lteration(per 100) batch Iteration(per 100) 
图 3-4: 不 进行 特征 处 理 的 结果 图 图 3-5: 进行 特征 处 理 的 结果 图 


比较 图 3-4 和 图 3-5 可 知 ， 特 征 处 理 明 显 加 快 了 损失 的 下 降 速度 ， 提 高 了 有 
限 代 数 的 准确 率 。 原 因 是 取 对 数 后 减 小 了 数据 的 跨度 〈 原 来 是 0 到 255， 输 入 值 
可 能 相差 数 百倍 )， 防 止 了 可 能 造成 的 梯度 爆炸 和 数值 不 稳定 。 此 外 ， 不 进行 特 
征 处 理 的 神经 网 络 对 学 习 率 非常 敏感 ， 特 征 处 理 则 避免 了 这 一 情况 。 


3.3 设置 批量 大 小 

深度 学 习 中 一 般 采 用 的 是 小 批量 随机 梯度 下 降 。 为 了 探索 设置 批量 的 原因 ， 
笔者 将 批量 大 小 设置 成 6000 进行 比较 ， 此 时 已 经 非常 接近 梯度 下 降 的 情况 。 绘 
制 训 练 后 的 结果 图 : 


一 一 train loss 
一 一 -~ train acc 


-一 一 test accC 


epoch 
图 3-6: batch 为 6000 时 的 结果 图 
与 图 3-5 相 比 ， 同 样 遍历 了 5 遍 所 有 数据 ， 梯 度 下 降 耗 费 了 大 量 的 时 间 ， 而 
且 损 失 下 降 速 度 也 很 慢 。 不 过 梯度 下 降 相 对 而 言 不 会 造成 曲线 的 震荡 , 但 也 因此 
没有 小 批量 梯度 下 降 带 来 一 定 的 泛 化 效果 。 
3.4 选择 优化 算法 
在 3.2 中 使 用 的 是 常见 的 小 批量 随机 梯度 下 降 法 ， 在 这 一 部 分 ， 笔 者 另外 对 
动量 法 和 RMSProp 算法 进行 了 实现 ， 由 此 试图 改进 模型 训练 的 效果 ， 以 下 进行 
详 述 : 
3.4.1 SGD (小 批量 随机 梯度 下 降 ) 
设 学 习 率 为 a，SGD 在 第 t 次 迭代 时 ， 随 机 选取 一 个 包含 K 个 样本 的 子 集 5t， 
计算 这 个 子 集 上 每 个 样本 损失 函数 的 梯度 并 进行 平均 ， 然 后 再 进行 参数 更 新 中: 


ac(y, Ge 9)) 
6 < 二 6 一 0 一 a 


(xz,)EsSi 


为 了 能 够 在 较为 收敛 的 状态 下 比较 优化 算法 的 优 务 ， 训 练 十 代 进 行 比较 : 


表 3.2: 优化 算法 为 SGD 的 训练 结 


碗 代数 训练 集 损失 训练 集 准确 率 验证 集 准确 率 
0 0.585 0.795 0.789 
3 0.445 0.841 0.828 
6 0.407 0.856 0.848 
9 0.381 0.867 0.852 


一 一 train loss 
--- train accC 


一 一 test accC 


epoch 
图 3-7: SGD 的 训练 结果 图 
3. 4.2 动量 法 〈Momentum) 


动量 法 使 用 之 前 积累 动量 来 蔡 代 真正 的 梯度 。 使 用 动量 法 迭代 的 公式 如 下 : 


MA A 
RR 


这 样 ， 每 个 参数 的 实际 更 新 差 值 取 决 于 最 近 一 段 时 间 内 梯度 的 加 权 平 均值 . 

当 某 个 参数 在 最 近 一 段 时 间 内 的 梯度 方向 不 一 致 时 , 其 真实 的 参数 更 新 幅度 
变 小 ; 相反 ， 当 在 最 近 一 段 时 间 内 的 梯度 方向 都 一 致 时 ， 其 真实 的 参数 更 新 幅度 
变 大 ， 起 到 加 速 作 用 。 一 般 而 言 ， 在 友 代 初期 ， 梯 度 方 向 都 比较 一 致 ， 动 量 法 会 
起 到 加 速 作 用 ， 可 以 更 快 地 到 达 最 优点 。 在 迭代 后 期 ， 梯 度 方向 会 不 一 致 ， 在 收 
敛 值 附 近 振 荡 ， 动 量 法 会 起 到 减速 作用 ， 增 加 稳定 性 。 


取 B=0.9，n=0.8x103 训练 十 代 后 得 到 相关 指标 : 
表 3.3: 优化 算法 为 Momentum 的 训练 结果 


进 代数 训练 集 损失 训练 集 准确 率 验证 集 准 确 率 
0 0.422 0.847 0.831 
3 0.367 0.863 0.842 
6 0.318 0.884 0.864 
9 0.282 0.895 0.866 


一 一 train loss 
--- train acc 


一 一 testacc 


epoch 
图 3-7: Momentum 的 训练 结果 图 
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3. 4. 3 RMSProp 算 法 


RMSProp 是 一 种 使 用 自 适 应 学 习 率 的 算法 .RMSProp 的 权重 更 新 方法 如 下 : 
si Jee T(t es, 
SIE 人 


取 y=0.9，n=8x107 训练 十 代 后 得 到 相关 指标 : 
表 3.4: 优化 算法 为 RMSProp 的 训练 结 


> > 


碗 代数 训练 集 损失 训练 集 准确 率 验证 集 准确 率 
0 0.566 0.795 0.778 
3 0.492 0.839 0.825 
6 0.412 0.857 0.845 
9 0.394 0.861 0.85 


一 一 train loss 
--—- train accC 


一 一 test accC 


= 


epoch 


图 3-8: RMSProp 的 训练 结果 图 
三 种 优化 算法 的 损失 下 降 曲 线 的 对 比 图 : 


0.60 

-一 一 SGD 
0.55 --- Momentum 
0.50 Wp RMSProp 


0.45 
0.40 
0.35 
0.30 


epoch 


图 3-9: 三 种 优化 算法 损失 下 降 曲 线 图 


综合 以 上 数据 可 以 看 出 , 动量 法 不 仅 加 快 了 收敛 速度 , 还 显著 提高 了 模型 最 
终 的 效果 。RMSProp 在 这 个 数据 集 上 表现 和 SGD 较为 接近 。 由 此 ， 接 下 来 的 研 
完 都 是 基于 动量 法 来 进行 的 。 


3.5 设置 权重 衰减 
为 了 提高 泛 化 效果 , 笔者 尝试 了 权重 衰减 技术 : 实际 上 相当 于 在 损失 函数 后 
加 上 12 范 数 ， 以 防止 过 拟 合 : 


入 
L(w,b) + 3 lw 
等 价 的 权重 更 新 公式 ，( 使 用 小 批量 随机 梯度 下 降 ); 


Wi (1—n)wo— a (w'x® 三 站 本 y®) 有 
iEB 


优化 算法 在 训练 的 每 一 步 衰 减 权 重 。 与 特征 选择 相 比 , 权重 衰减 为 我 们 提供 
了 一 种 连续 的 机 制 来 调整 函数 的 复杂 度 。 较 小 的 入 值 对 应 较 少 约束 的 w， 而 较 大 
的 入 值 对 w 的 约束 更 大 。 

采用 动量 法 , 这 里 设置 =0.01， 其 他 超 参数 和 动量 法 相同 ,训练 十 代 得 到 结 


末 : 
表 3.5: 使 用 权重 衰减 的 训练 结 
从 代 数 训练 集 损失 训练 集 准确 率 验证 集 准确 率 
0 0.469 0.838 0.818 
3 0.360 0.872 0.856 
6 0.343 0.878 0.864 
9 0.321 0.878 0.867 


一 一 train loss 
一 一 -~ train acc 


一 一 test accC 


epoch 
图 3-9: 权重 衰减 的 训练 结果 图 
比较 表 3.3 和 图 3-10， 过 拟 合 的 状况 有 轻微 的 缓解 。 
3.6 使 用 dropout 方 法 


Dropout 是 一 个 简单 有 效 的 正则 化 技术 ;在 每 个 训练 步骤 中 ， 每 个 神经 元 都 
有 和 暂时 “删除 ”的 概率 p， 这 意味 在 这 个 训练 步骤 中 它 完全 被 忽略 ， 但 在 下 一 个 
步 怠 中 可 能 处 于 活动 状态 。 训 练 后， 神经 元 不 再 被 删除 ， 如 下 图 所 示 中 ; 


英 忆 六 简 ! 


图 3-10: dropout 示意 图 
在 我 们 实现 的 多 层 感知 机 中 ， 可 能 是 隐藏 层 较 少 ，dropout 效果 并 不 显著 。 
笔者 将 两 个 隐藏 层 dropout 设置 为 0.05，0.1， 训 练 二 十 代 ， 效 果 并 不 明显 。 而 如 
果 设 置 的 更 高 ， 收 敛 性 会 受到 影响 ， 效 果 反 而 会 下 降 。 


一 一 train loss 一 一 train loss 
一 一 ~- train acc -=-- train acc 


— testacc -一 一 testacc 


0 5 10 15 0 5 10 15 
epoch epoch 
图 3-11: 无 dropout 结果 图 图 3-12: 有 dropout 结果 图 
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第 4 草 ”结果 评价 与 分 析 


依据 第 三 章 ， 笔 者 最 终 将 经 过 特征 处 理 、 使 用 动量 法 作为 优化 方法 ， 由 两 个 
输入 层 ， 两 个 隐藏 层 的 神经 网 络 组 成 ， 隐 藏 层 神经 元 个 数 依次 为 256、128， 学 习 
率 人 -0.8x103， 权 重 衰减 率 为 0.01 的 模型 作为 改进 后 的 模型 。 本 章 则 是 对 模型 进 
行进 一 步 的 分 析 评价 。 将 主要 通过 考察 更 多 评价 指标 、 与 传统 的 机 器 学 习 算法 比 
较 来 衡量 ， 并 将 该 模型 迁移 到 MNIST 数据 集 上 以 考察 模型 的 鲁 棒 性 。 

4.1 使 用 其 他 评价 指标 


由 第 三 章 知 ， 我 们 的 模型 在 训练 集 上 的 准确 率 为 87.8%， 测 试 集 上 的 准确 率 
为 86.7%。 

ROC 曲线 适用 于 二 分 类 ， 这 里 根据 softmax 层 输出 每 类 的 可 能 性 ， 并 绘制 0 
类 和 非 0 类 地 ROC 曲线 : 


1.0 
0.8 1 
0.6 


[ad 
C_ 
广 
0.4 


0.2 


0.0 
0.0 02 0.4 0.6 0.8 1.0 
FPR 
图 4-1: 改进 模型 0 类 和 非 0 类 的 ROC 曲线 
ROC 曲线 围 成 的 面积 还 是 相当 之 大 的 ， 可 见 MLP 能 实现 较 好 的 分 类 效果 。 
4.2 与 softmax 回 归 进 行 比 较 


Softmax 相当 于 没有 任何 隐藏 层 的 简单 的 线性 模型 。 使 用 同样 的 优化 方法 和 
超 参数 ， 结 果 如 下 : 


表 4.1: 使 用 softmax 回归 的 训练 结 
途 代 数 训练 集 损 失 训练 集 准确 率 验证 集 准确 率 
0 0.499 0.829 0.812 
3 0.427 0.852 0.833 
6 0.422 0.856 0.833 
9 0.408 0.859 0.84 


一 一 train loss 
一 一 -~ train acc 


一 一 testacc 


epoch 


图 4-2: softmax 回归 的 训练 结果 图 
对 比 表 3.5 和 图 3-9， 可 见 多 层 感知 机 效果 相对 于 softmax 回归 提高 显著 。 


同样 绘制 0 类 和 非 0 类 的 ROC 曲线 : 
1;0 
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图 4-3: softmax 模型 0 类 和 非 0 类 的 ROC 曲线 


与 图 4-1 相 比 明显 ROC 曲线 围 成 的 面积 更 小 ， 效 果 不 如 改进 的 MLP。 
4.3 迁移 至 MN1ST 数 据 集 上 面 的 效果 
笔者 使 用 本 章 开 头 提 及 的 同样 结构 的 网 络 ， 同 样 的 超 参数 ,将 两 个 隐藏 层 的 


dropout 设置 为 0.2、0.5， 效 果 如 下 : 
表 4.1: MNIST 的 训练 结果 


碗 代数 训练 集 损失 训练 集 准确 率 验证 集 准 确 率 
0 0.251 0.93 0.9 
5 0.137 0.963 0.941 
10 0.114 0.973 0.95 
19 0.098 0.977 0.958 


-一 一 train loss 


一 一 ~- train acc 
— testacc 


0 5 10 15 
epoch 


图 4-2: MNIST 的 训练 结果 图 
如 图 4-2 所 示 , 将 我 们 训练 的 MLP 模型 直接 迁移 至 MNIST 数据 集 上 可 以 达 
到 较 高 的 准确 率 。 而 如 果 调 超 参 数 ， 微 调 后 效果 可 以 实现 更 好 的 效果 。 


第 5 章 


本 文 设计 实现 了 一 个 多 层 感知 机 。 最 终 实验 比较 通过 特征 进行 取 对 数 处 理 、 


使 用 动量 法 作为 优化 方法 、 使 用 权重 衰减 作为 正则 化 方法 ， 提 高 了 模型 的 效果 ， 


在 Fashion MNIST 上 实现 了 训练 集 ; 准 丰 


并 直接 将 模型 迁移 到 MNIST 中 达到 了 较 高 的 准 而 


角 率 达 87.8%， 测 试 集 达 86.7% 的 ; 稚 胡 


角 率 。 


角 率 ， 
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